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云 一 边缘 系统 中 跨 域 大 数据 作业 调度 技术 研究 
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摘 要 : 为 提升 用 户 服务 质量 ， 各 类 边缘 集群 部 署 于 用 户 周围 ， 在 成 为 云 数 据 中 心 重要 补充 的 同时 ， 也 因 其 与 用 户 
不 断交 互 而 产生 大 量 用 户 数据 。 为 了 降低 因 处 理 这 些 跨 域 大 数据 带 来 的 作业 完成 时 延 ， 首 先 提出 了 以 最 小 化 系列 跨 
域 作业 平均 完成 时 间 为 优化 目标 的 在 线 随 机 调度 算法 ranTA, ranTA 基于 跨 域 资源 的 异 构 性 在 线 地 计算 出 各 计算 任 
务 调 度 至 不 同位 置 的 偏好 ， 并 以 此 偏好 作为 概率 调度 每 个 计算 任务 ; 更 进一步 ， 为 了 避免 将 “热点 ”数据 积压 在 边 
缘 集 群 造 成 性 能 上 瓶颈， 提出 基于 ranTA 的 梢 带 式 数据 重 分 布 机 制 ranTA-data， 其 将 部 分 数据 随 任 务 执行 留存 至 云 数 
据 中 心 。ranTA-data 不 仅 优化 了 当前 作业 的 完成 时 间 ， 也 能 证 明 在 该 机 制 下 系列 作业 的 平均 完成 时 间 以 大 概率 汇聚 
于 最 优 解 附近 。 大 规模 仿真 实验 表明 ， 所 提出 的 在 线 随机 化 算法 与 数据 重 部 署 机 制 相 比 传统 方法 平均 降低 系列 作业 
完成 时 间 近 30%。 

关键 词 : 跨 域 数据 处 理 ; 云 一 边缘 集群 ; 任务 调度 
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= Task scheduling for geo-distributed data analytics in cloud-edge system 
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(1. Research Institute of State Grid Jiangsu Electric Power Co. Ltd., Nanjing 210008, China; 2. Jiangsu Frontier Electric 
Technology Co. Ltd., Nanjing 210000, China; 3. Dept. of Computer Science & Technology, Nanjing University, Nanjing 
210023, China) 


Abstract: Nowadays, many geo-distributed nearby edges have been deployed for providing high quality services to end 
users, which continuously produce large volume of user data. In order to minimize the average latency for a series of 
geo-distributed data analytical jobs, this paper first introduced online randomized algorithm ranTA. ranTA actually showed 
the preference on the task assignment under the consideration of both computing capacity of edges and the network 
bandwidth. Furthermore, in order to avoid overloading those edges with low computing capacities, this paper proposed data 
redistribution mechanism ranTA-data based on ranTA by redistributing some data to the central data center along with the 
tasks. The result of ranTA-data could be proved concentrated on its optimum with high probability. Extensive simulations 
show that ranTA-data gains nearly 3096 improvement compared with current scheduling algorithms. 


Key words: geo-distributed data analytics; cloud-edge system; task scheduling 


0 引言 通过 合理 任务 调度 最 小 化 跨 域 数据 传输 量 。 文 献 [6,7] 在 进行 
E 大 数据 处 理 作 业 的 执行 模式 选择 上 也 将 数据 传输 与 带宽 的 使 
谷歌 和 阿里 巴巴 等 大 型 企业 与 组 织 ， 已 经 在 全 球 范围 内 用 考虑 在 内 ， 从 而 选 出 最 优 数据 传输 策略 。 然 而 ， 由 于 边缘 
部 署 了 多 个 数据 中 心 以 及 大 量 跨 地 域 分 布 的 边缘 集群 中。 利 ”集群 在 计算 能 力 上 的 异 构 ， 纯 粹 优化 数据 传输 的 任务 调度 也 
用 数据 中 心 强大 处 理 能 力 与 边缘 集群 低 时 延 的 优势 ， 这 样 的 。 会 导致 负载 不 均 ， 造 成 一 些 任务 在 “热点 ”边缘 积压 。 为 此 ， 


att 


云 -边缘 系统 为 用 户 提 供 了 高 质量 的 业务 , 并 且 在 各 个 边缘 积 ”文献 [8,9] 针 对 跨 域 环境 带宽 与 计算 力 的 异 构 性 ， 提 出 了 利用 
累 了 大 量 用 户 数 据 趾 。 而 许多 商业 决策 或 数据 分 析 需 要 实时 空闲 资源 与 # roen 批量 任务 调度 ， 以 减少 批量 任务 的 整体 
综合 处 理 这 些 跨 域 分 布 的 数据 由 ， 因 此 如 何在 云 -边缘 系统 中 ”完成 时 间 ， 但 是 一 味 地 在 本 地 计算 资源 被 占用 时 将 任务 直接 


过 
实现 低 时 延 的 跨 域 大 数据 处 理 作 业 成 为 一 个 重要 研究 问题 。 调度 到 远 端 云 数据 中 心 使 用 空闲 计算 资源 ， 会 给 跨 域 链 路 带 
于 广域网 数据 传输 的 局 限 ， 将 大 量 边缘 数据 先 汇 聚 到 ”” 宽 造成 极 大 的 负担 。 由 于 一 些 任 务 在 本 地 进行 适当 的 排队 就 
云 数 据 中 心 再 处 理 的 方式 ， 不 仅 消 耗 带宽 ， 也 带 来 了 较 大 的 ”能够 获取 到 空闲 的 计算 资源 ， 为 此 Jin 等 人 09 针 对 空闲 资源 
时 延 。 有 不 少 工作 考虑 尽 可 能 将 任务 本 地 化 执行 ， 以 减少 广 ”与 占用 资源 使 用 不 均衡 的 问题 ， 设 计 了 文 持 任务 本 地 排队 的 
域 网 数据 传输 。Vulimiri 等 人 外 研究 如 何在 跨 域 环境 下 进行 最 。 批量 任务 调度 方案 ， 进 一 步 降低 批量 任务 的 整体 完成 时 延 。 
少数 据 量 的 传输 和 快速 任务 执行 ， Pu 等 人 外 发 现 利 用 稀缺 带 然而 ， 所 有 这 些 研究 工作 都 只 针对 当前 提交 的 作业 ， 通 
进行 大 规模 数据 传输 容易 造成 各 异 的 跨 域 传输 时 间 ， 因 此 ” 过 任务 调度 来 降低 该 作业 完成 时 间 。 事 实 上 ， 在 云 一 边缘 这 
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样 的 异 构 分 布 式 系统 中 ， 数 据 分 布 是 影响 作业 执行 的 关键 。 
如 果 能 将 “热点 ”数据 尽 可 能 转移 到 具有 强大 处 理 能 力 的 数 
据 中 心 ， 那 么 后 续 相关 作业 就 可 以 高 效 完 成 。 现 有 工作 虽然 
优化 了 当前 任务 的 完成 时 间 ， 但 并 未 考虑 多 个 作业 的 平均 完 
成 时 间 ， 也 就 是 ， 没 有 系统 化 研究 由 于 当前 任务 调度 引起 的 。 ”其 中 : 以 为 调度 指示 变量 , 用 于 表示 作业 j 中 以 数据 块 ! 为 输 
数据 重 部 署 对 后 续 作业 带 来 的 收益 。 为 此 ， 本 文 以 优化 系列 。 入 的 数据 分 析 任 务 是 否 调度 到 计算 单元 s Ee R (1) 中 的 
作业 平均 完成 时 间 为 目标 ， 深 入 研究 了 跨 域 大 数据 作业 的 任 。 ”表示 为 以 数据 块 4 作为 输入 的 数据 分 析 作业 的 处 理 时 延 。 由 
务 分 配 间 题 ,提出 了 在 线 随 机 化 任务 分 配 算法 ranTA 与 撒 带 。 于 相 比 与 云 数据 中 心 ， 边 缘 集 群 的 处 理 能 力 相对 较 弱 ， 因 此 
式 数据 重 部 署 策略 ranTA-data。 不 仅 优化 了 当前 作业 的 完成 DI e 
时 间 ， 也 能 证 明 系 列 作业 的 平均 完成 时 间 以 大 概率 汇聚 于 最 X QD 中 在 边缘 集群 Ms) 的 处 理 时 延 为 moei, HP gosi, 
优 解 附 近 。 大 量 模拟 实验 亦 表明 ， 在 线 随机 化 任务 调度 算法 。 表示 计算 单元 所 处 的 边缘 集群 为 # ro 为 边缘 集群 ws 相 
UP EE V E Ae M o6 六 法 在 作 
ura Lu dent 对 于 云 数据 中 心 的 处 理 速率 比 。 对 于 数量 为 | 了 [Zn 大 


" T " " 
W mr T 17a uas 


max, (07 95, Hei) (2) 


1 ZAARA PRAA BUS KT 的 数据 分 析 任务 而 言 ， 它 们 相互 之 间 共 享 带宽 Bis ， 因 此 总 
1 云 一 边缘 系统 与 大 交 k ; T 
B E dn didt HEIN ERE AMESA 122,1 f REG 


云 一 边缘 系统 中 包含 一 系列 跨 域 部 署 在 各 地 的 边缘 集 
群 ， 以 及 一 个 能 力 强 大 的 云 数据 中 心 ， 对 边缘 集群 以 及 云 数 在 这 些 传输 到 数据 中 心 的 数据 分 析 任 务 中 ， 最 后 完成 的 是 执 
据 中 心计 算 能 力 , 一 般 采 用 计算 单元 外 (slot) 的 数量 来 刻画 。 行 时 延 最 长 的 任务 。 因 此 ， 在 传输 负载 的 基础 上 增加 了 这 些 
一 般 认为 ,能 力 强 大 的 云 数据 中 心计 算 单元 数量 总 是 充足 的 ， 数据 分 析 任务 中 最 长 的 执行 时 延 。 
而 边缘 集群 相对 于 云 数 据 中 心 的 处 理 能 力也 较 弱 ， 计 算 单 元 1.2 ” 跨 域 大 数据 处 理 作 业 调 度 问 题 
数量 有 限 ， 相 关 计 算 单 元 负载 可 能 较 高 。 所 有 边缘 集群 与 云 对 于 一 个 数据 分 析 作 业 j 来 说 ， 目 标 是 最 小 化 该 作业 的 
数据 中 心 有 网 络 连 接 ， 因 此 可 以 与 云 数 据 中 心 进行 数据 传输 完成 时 间 ， 而 这 取决 于 最 晚 完成 的 那个 任务 。 由 于 相关 任务 
与 信息 交换 。 分 布 于 各 个 边缘 集群 或 云 数据 中 心 ， 因 此 面向 单个 作业 的 任 
一 般 的 ， 数 据 分 析 作 业 可 以 定义 为 一 个 有 向 无 环 图 务 调度 目标 可 以 转换 为 最 小 化 任务 所 在 各 个 集群 中 最 大 的 负 
(DAG) 喇 ， 其 中 节点 表示 阶段 功能 ， 边 表示 阶段 间 的 依赖 载 ， 即 
关系 。 在 运行 过 程 中 , 主流 的 Hadoop 和 Spark 等 大 数据 处 理 
平台 针对 DAG 型 作业 的 每 个 阶段 ， 生 成 可 并 行 执行 的 一 组 
任务 。 同 时 ， 这 些 平台 根据 当前 作业 阶段 ， 批 量 执行 任务 。 就 一 系列 作业 而 言 ， 单 独 优化 局 部 每 个 作业 的 完成 时 间 
由 于 DAG 型 作业 中 ， 一 个 阶段 的 所 有 任务 全 部 完成 ， 才 能 并 不 一 定 能 最 小 化 作业 的 平均 完成 时 间 。 为 此 ， 本 文 定义 以 
进入 下 一 个 阶段 ， 因 此 ， 作 业 完 成 时 间 取 决 于 最 后 一 个 完成 优化 系列 作业 平均 完成 时 间 的 跨 域 大 数据 处 理 任 务 分 配 问 


max, {U}, Vý} (3) 


的 任务 。 对 于 一 个 计算 单元 s， 分 配 其 上 的 任务 串 行 执行 ， 题 。 
设 w 表示 一 个 计算 单元 s 上 的 待 处 理 负 载 ， 即 为 计算 单元 s 定义 1 跨 域 大 数据 处 理 作业 任务 分 配 问 题 Geo- 
上 处 理 完 所 有 等 待 任务 的 时 间 。 每 一 个 数据 分 析 任 务 均 使 用 distributed big data analytics task assignment,Geo-TA)。 针 


一 个 存储 于 HDFS (1 且 大 小 为 5 的 数据 块 作为 输入 数据 进行 XA DAG 型 大 数据 处 理 作 业 的 一 批 待 执行 任务 ， 将 这 些 任 
处 理 02， 因 此 ， 数 据 必 须 传 送 到 运行 任务 的 计算 单元 。 边 缘 务 指派 到 相关 数据 集群 或 转移 到 数据 中 心 ， 以 最 小 化 所 有 作 


集群 计算 单元 数量 有 限 ， 可 能 导致 任务 排队 而 延长 任务 执行 业 的 平均 完成 时 间 。 每 个 作业 的 完成 时 间 由 式 (3) 定义 。 
时 间 ， 数 据 中 心计 算 资源 充足 ， 任 务 能 快速 执行 ， 但 往往 面 ee 
临 从 边缘 抽取 数据 消耗 时 间 。 云 -边缘 系统 中 作业 调度 目标 就 T. 

是 ， 在 大 数据 处 理 平台 开始 执行 某 阶段 一 批 任务 前 ， 决 定 这 人 
些 任务 应 该 在 保存 相关 数据 的 边缘 集群 执行 还 是 转移 到 数据 

中 心 ， 从 而 最 小 化 作业 的 完成 时 间 。 定理 1 。 跨 域 大 数据 处 理 作业 任务 分 配 问题 Geo-TA 

于 一 部 分 数据 分 析 任 务 留 在 本 地 集群 执行 ， 另 一 部 分 。 是 NP 难 问题 。 

至 远 端 数据 中 心 进行 处 理 ， 因 此 需要 评估 任务 调度 后 批量 数 证 明 已 知 多 处 理 器 调度 判定 问题 为 NP 难 问题 03， 其 
据 分 析 任 务 在 本 地 与 数据 中 心 产生 的 负载 ， 以 优化 作业 完成 。 SEXUS: ARE n 个 处 理 器 与 mn 个 作业 ， 各 作业 的 处 理 时 间 为 


时 间 。 对 于 某 一 个 数据 分 析 作 业 j， 及 其 包含 的 一 批 数据 分 P,…Ppn， 要 求 判定 是 否 存 在 一 种 调度 Ww， 使 得 在 该 调度 下 完 
析 任 务 , 设 这 些 任务 将 会 在 边缘 集群 i 上 访问 的 数据 集 为 77， ”成 时 间 小 于 等 于 给 定 参 数 k。 即 ， 将 所 有 作业 均 指派 到 某 一 
那么 单个 作业 优化 的 目标 即 为 最 小 化 批量 任务 的 完成 时 间 。 
而 批量 任务 产生 的 负载 包含 两 个 方面 : a) 在 本 地 边缘 集群 产 
生 的 计算 负载 ， 设 Vi 表示 作业 j 调度 后 计算 单元 s 上 的 总 负 ” 成立 。 
B: b) 将 任务 调度 到 云 数据 中 心 产生 的 负载 ， 设 Wi ZEN 对 于 任意 一 个 多 处 理 器 调度 判定 问题 的 实例 ， 都 能 将 其 
J 调度 后 边缘 集群 i 向 云 数 据 中 心 转移 的 负载 , 同时 设 对 于 人 在 多 项 式 时 间 内 规约 到 一 个 Geo-TA 判定 问题 的 实例 ， 并 且 
Ay j 而 言 边缘 集群 i 至 云 数据 中 心 的 可 用 带宽 为 8 。 因 此 ， 该 两 个 判定 问题 在 任何 调度 策略 下 的 输出 一 致 .Geo-TA 判定 
对 于 任何 的 计算 单元 s， 该 两 部 分 的 负载 可 分 别 表示 为 问题 的 定义 为 ， 给 定 参数 k，Geo-TA 的 整体 完成 时 延 ， 即 式 
(4) 是 否 小 于 等 于 k。 首 先 ， 在 跨 域 资源 部 署 Geo-TA 的 判 
定 问题 中 ， 构 建 一 个 边缘 集群 拥有 n 个 计算 单元 ， 且 可 用 带 


个 处 理 器 Vie[l,m,wli) etn], ERAR max Donk 是 否 


nt r 


Ui - Wi + pw uas, Tit (1) 
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宽 为 一 个 无 穷 小 值 B。 并 构造 一 个 具有 m 个 数据 分 析 任 务 的 。 率 ， 妈 等 于 1 的 概率 也 即 på o 

数据 分 析 作 业 。 每 个 以 数据 块 i 作为 输入 数据 的 数据 分 析 任 最 后 ， 在 进行 真实 数据 分 析 任 务 调度 的 时 候 。 可 以 先 预 
务 的 执行 时 间 对 应 于 4 =p;。 这 样 就 能 在 O(nt+m) 内 从 任意 一 ”先进 行 两 次 伪 调 度 部 署 ， 取 其 中 负载 较 低 的 一 种 方案 作为 真 
个 多 处 理 器 调度 判定 问题 实例 规约 到 跨 域 资源 部 署 Geo-TA ” 实 部 署 数 据 分 析 任 务 的 策略 。 这 是 因为 ， 在 进行 了 两 次 比较 
的 判定 问题 实例 。 同 时 使 得 多 处 理 器 调度 判定 问题 的 参数 k ”的 选择 后 其 中 较 低 的 这 种 策略 能 够 使 得 高 负载 出 现 的 概率 进 
就 是 跨 域 资源 部 署 Geo-TA 判定 问题 的 参数 ,该 规约 过 程 是 步 降低 。 算 法 第 1 行 中 由 lpGeo-TA 定义 的 问题 能 够 使 用 
多 项 式 的 。 接 着 ， 对 于 任意 一 种 多 处 理 器 调度 策略 ， 若 其 将 。 线性 规划 技术 进行 高 效 求解 ， 算 法 剩余 部 分 (2~5 行 ) 的 复 
作业 i 调度 到 处 理 器 或 是 机 器 s， 那 么 在 Geo-TA 中 就 将 第 i 杂 度 仅 为 08， 其 中 于 为 一 个 作业 中 包含 的 计算 任务 数目 的 
号 数据 分 析 任 务 调 度 到 计算 单元 9*〈 由 于 带宽 过 低 ， 因 此 任 上 限 。 


务 不 会 调度 到 云 数 
题 中 的 总 体 完 成 时 延 为 max (95,0, 5j Geo-TA 中 


居中 心 )。 如 此 这 样 , 多 处 理 器 调度 判定 问 


的 整体 


完成 时 间 一 致 。 所 以 在 相同 参数 大 下 两 个 判定 问题 的 输出 一 
致 。 


问题 是 NP 难 问题 。 否 由 
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么 ,既然 Geo-TA 判定 问题 是 NP 完全 问题 , 则 
[S 为 任意 比 其 最 优 解 小 的 值 ， 则 


Geo-TA 


Geo-TA 判定 问题 能 够 在 多 项 式 时 间 内 进行 判定 , 与 该 判定 问 
题 是 NP 完全 问题 矛盾 。 
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此 设计 撒 带 式 的 数据 重 部 署 策 略 ， 
务 调度 与 数据 重 部 署 机 箱 
匀 完 成 时 间 能 以 大 概率 聚集 在 最 优 解 附近 。 
在 线 随 机 任务 调度 算法 
小 化 当前 作业 完成 时 间 的 任务 调度 问题 ， 
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即 最 优化 式 


是 Geo-TA 问题 的 特例 ， 事 实 上 也 是 NP 难 问题 ， 但 


题 jpGeo-TA (linear 


programming Geo-TA)。 虽 然 线性 规划 求 得 的 解 不 能 直接 应 用 
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忆 此 ， 本 文 利 用 该 线性 规划 得 到 


其 作为 


或 资源 部 署 问题 ， 但 反映 了 算法 对 
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法 1. 在 线 随机 
求解 lpGeo-TA 一 ( pi] 
for 每 一 个 任务 do 
(p) 概率 舍 入 成 为 { 4 } 
以 { 24} 调度 该 任务 到 计算 单元 s 


5 end for 
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法 1 首先 将 原 问题 ， 即 器 


vd:2 på =1; på =[0,1] 


调度 。 对 
说 也 能 够 证 明 其 结果 以 大 概率 稳定 在 最 优 解 附 近 。 
化 任务 调度 算法 ranTA 


于 当前 资源 部 署 的 
解 ， 并 将 
于 一 系列 数据 分 析 


或 资源 调度 问题 松弛 成 为 一 
行 )。 在 式 C50 的 基础 上 ， 
标 ， 将 变量 松弛 成 为 [0, 1] 的 实数 : 


(6) 


于 该 问题 的 变量 为 [0, 1] 的 实数 ,可 


用 线性 规划 高 效 求 


解 。 对 于 每 一 个 任务 ,对 求 得 的 { ps } 以 概率 舍 入 的 方式 (第 


3 行 ) 得 到 { 14}。 
析 任 务 ， 即 其 中 一 个 以 数据 块 d 


\ 体 方式 为 ， 对 于 作业 j 的 每 一 个 数据 分 
作为 输入 的 任务 ， 选 取 一 个 


随机 的 小 数 re (0, 1]。 如 果 7 落 在 (DPh,> Ph] ， 则 三 为 


1， 和 否则 为 0。 这 样 的 随机 舍 入 策 
据 分 析 任务 , 有 且 仅 有 
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各 能 够 保证 对 于 任何 一 个 数 
个 计算 单元 能 够 服务 该 任务 。 同 时 ， 


“等 于 1 的 概率 恰好 为 > 落 到 区 间 O io Ph Dao Pi] 的 概 


2.2 朱 带 式 数据 重 部 署 策略 


在 将 任务 调度 


至 云 数 据 中 心 后 ， 可 以 立刻 选择 将 数据 留 


存 下 来 ( 朱 带 式 数据 重 部 署 )。 这 是 因为 任务 的 执行 本 身 即 需 


。 将 任 
偷 的 数据 进行 留存 


务 调 出 至 数据 中 心 后 可 以 直接 利用 已 经 传 
。 这 样 后 续 的 数据 分 析 作 业 只 要 再 一 次 需 
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直接 在 数据 中 心 进行 执行 ， 而 不 必 从 边缘 
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带 式 数据 重 部 署 还 能 够 减轻 边缘 计算 集群 


这 是 因为 


后 续 作业 的 数据 分 析 任 务 将 会 在 能 力 强 


的 云 数 据 FH 心 中 进 


行 计算 ， 从 而 可 以 防止 边缘 计算 集群 成 为 
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是 在 异 构 环 境 下 ， 一 些 边缘 计算 集群 的 能 
数据 分 析 任 务 滞留 本 地 将 会 对 边缘 计算 得 
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各 ranTA-data 


Q = max, (max, UV }} 


for 每 一 个 任务 do 
if 该 任务 调度 到 云 数据 中 心 do 


将 数据 留存 至 数 
end if 


end for 


H 中 心 


for 每 一 个 边缘 集群 i do 


end for 

该 算法 与 在 线 
输出 结果 进行 数据 
的 数据 留存 至 云 数 


RZ Q max, (max, (U7,V/]) 进行 数据 重 部 署 


任务 调度 算法 不 同 在 于 ， 其 利用 ranTA 的 
重 部 署 ， 即 在 进行 任务 调度 后 直接 将 关联 
据 中 心 。 正 是 因为 该 数据 重 部 署 策略 无 须 


额外 代价 ， 即 第 3~7 行 ， 


Jesh, ERITH 
边缘 集群 中 各 异 的 
j 关联 的 批量 数 志 


maxycw {U,V} S 


E EFR S HI ld E EEUU o 
式 数据 重 部 署 的 过 程 中 还 可 以 利用 在 各 个 
任务 完成 时 间 进 行 优化 , 第 8-10 行 。 作 业 
居 分 析 任 务 在 各 个 边缘 集群 上 的 负载 为 


是 由 于 在 各 个 边缘 集群 上 maxo {UV 的 
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原因 涉及 边缘 集群 的 计算 能 力 、 带 宽 、 待 
分 布 。 因 此 可 以 利用 这 样 的 负载 差异 ， 让 
边缘 集群 完成 前 进行 重 部 署 ， 即 在 下 式 的 


限制 内 进行 数据 重 部 署 -maxi{fmaxww-{Cz,V}} 。 由 于 作业 的 


完成 取决 于 最 滞后 

最 滞后 边缘 集群 ， 

不 会 提前 结束 。 利 

好 的 效果 。 

2.3 理论 分 析 
本 节 首 先 说 明 


成 时 间 能 够 以 大 概率 稳定 在 其 最 优 解 的 附近 《定理 2)。 且 


任务 的 完成 ， 而 最 滞后 任务 必 存 在 于 某 个 
因此 只 要 在 该 边缘 集群 未 完成 任务 前 作 记 
用 该 时 间 间 隔 进行 数据 重 部 署 将 会 达到 更 
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仅 利 用 ran TA. 算法 得 到 的 数据 分 析 作 业 
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进一步 ， 利 用 数据 重 部 
论 界 《定理 3)。 

定理 2 算法 1 得 到 的 数据 分 析 作 业 完 成 时 间 能 够 以 
大 概率 稳定 在 其 最 优 解 的 附近 ， 即 


LY, max {U Mb < Opi «0C e FC) (7) 
证 明 首先 考察 对 于 单个 作业 j。 以 随机 化 的 方式 调 
度 后 ， 得 到 真实 调度 结果 为 Ui Vio) ， 下 面 构造 随机 变量 


署 策略 ranTA-data 能 够 达到 更 好 的 理 


pin 
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Ad = yq», uel — piel) (8) 


用 于 刻画 真实 调度 后 的 Vi 与 其 期 望 负载 之 间 的 距离 。 这 里 需 
要 说 明 的 是 At 用 于 指示 当 数 据 块 序号 小 于 d 的 数据 分 析 任 
务 部 署 后 ， 在 计算 单元 s 上 产生 的 负载 与 其 期 望 负 载 之 间 的 
距离 。 这 里 对 数据 块 的 枚 举 采 用 了 其 序号 之 间 的 大 小 关系 。 
对 于 全 局 唯一 的 数据 块 序 号 ， 是 可 以 进行 大 小 比较 的 。 可 以 
得 到 


Vs,d:E[Az] 


= Ely (Te! — piel)] 20 (9) 


若 作 业 j 使 用 到 的 数据 块 中 ， 数 据 块 4 的 后 继 数据 块 序 
号 为 f(4)， 那 么 可 以 得 到 


d _ Nd | = i JU. j 
[Aj - Ad | = Yao |T seh P (aysÉf ia) 


S acra (10) 
也 即 序列 { A: } 为 一 个 蒜 差 序列 。 将 Azumalt4 不 等 式 应 
用 到 该 蒜 差 序列 上 ， 就 能 得 到 ; 


p 
Pr[A? 2 t] < exp{- -A————————) 
P Y a Oron? (11) 


该 不 等 式 中 a 表示 数据 分 析 作 业 j 所 访问 数据 块 中 最 大 
的 序号 。 将 上 式 展开 后 ， 可 以 得 到 


Pr[Uj — E[Uj]2 1] $eXPU- zA——————À) 
Iu Dele 25 aj, oti" 


式 至 少 以 (1-8) 概 率 成 立 ， 即 将 不 等 式 右 
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(12) 


等 价 于 以 下 不 等 
部 分 看 成 整体 8: 


Ui S EIU] vy, max, [ei W217 [In (13) 


上 式 表示 在 使 用 了 随机 化 调度 后 ， 在 计算 单元 s 上 的 负 
载 距离 其 期 望 不 会 太 远 。 且 该 距离 随 着 概率 (1-8) 的 减少 而 指 
数 增 大 。 又 由 于 EUN 就 是 在 利用 了 { pi } 得 到 的 理论 最 优 解 ， 
则 上 式 意 味 着 在 进行 随机 化 的 调度 后 ， 在 所 有 计算 单元 间 都 
有 UN 以 大 概率 稳定 在 其 最 优 解 附近 ， 即 以 下 不 等 式 以 至 少 
(1-5) 概 率 成 立 : 


max, (U/) < max, (EIU71] +max, y {ye} h |T/ [In (14) 


男 一 方面 对 于 Vi ， 同 样 可 以 进行 类 似 的 分 析 。 可 以 得 
出 以 下 不 等 式 以 至 少 (1-6) 概 率 成 立 : 
T j 1 
V SEV PIT Dim (15) 
同样 , 由 于 EVA 就 是 在 利用 了 { pi } 得 到 的 理论 最 优 解 ， 
则 上 式 意味 着 在 进行 随机 化 的 调度 后 ， 在 所 有 边缘 集群 中 ， 
(V } 以 大 概率 稳定 在 其 最 优 解 附 近 ， 即 以 下 不 等 式 至 少 以 
(1-6) 概 率 成 立 : 


max, (V, } < max, (E[V4,,]) +maxycs Har. THIT s) [In (16) 


那么 在 所 有 的 边缘 集群 间 就 人 以 下 不 等 式 以 (1-6) 概 率 
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Bur. 
max, {UL V/) <z emax red NET! hs ms (07D 
其 中 不 等 式 的 左边 部 分 即 为 真实 的 调度 负载 ， 右 边 的 第 一 项 


为 在 各 计算 单元 上 调度 期 望 的 最 大 值 , 也 即 利 用 { 改 } 进 行 调 
度 的 理论 最 优 ， 这 里 用 u 代替 。 不 等 式 的 最 后 一 部 分 代表 着 
真实 调度 与 最 优 局 部 调度 之 间 的 距离 。 且 该 距离 随 着 概率 
(1-6) 的 减少 而 指数 级 增 大 。 不 妨 设 所 有 作业 之 间 式 (17) 最 


右边 项 的 最 大 值 为 FO). 那么 对 于 所 有 的 作业 j 来 说 ， 均 有 
以 下 不 等 式 以 至 少 (1-5) 的 概率 成 立 : 
Vi) sz FCD (18) 


接 下 来 考虑 一 系列 作业 。 对 于 每 个 作业 ， 式 (18) 不 成 
立 的 概率 至 多 为 6。 那么 利用 Union BoundU]， 对 于 一 系列 n 
个 作业 ， 上 式 至 少 有 一 个 不 成 立 的 概率 至 多 为 n88。 也 即 对 于 
系列 作业 ， 以 下 不 等 式 以 至 少 (1-n8) 成 并 。 


! TORTE 1 
Z2 max, {U; VS] < 2 + FG) (19) 


又 由 于 对 于 局 部 的 理论 最 优 解 来 说 ， 其 总 是 比 任何 整数 
调度 的 结果 优 , 也 因此 二 是 作业 7 任何 整数 调度 结果 的 下 界 。 
对 于 任何 一 个 整数 调度 来 说 ， 其 上 界 是 将 当前 在 边缘 集群 中 
的 所 有 数据 调度 先 传输 到 数据 中 心 再 进行 执行 。 所 以 有 以 下 
不 等 式 以 至 少 (1-n8) 成 立 。 

LI max, U) V4.) < 也 mate }+max {2 

最 后 ， 由 于 全 局 人 始 所 有 的 数据 
已 经 在 云 数 据 中 心 ， 且 所 有 上 传 的 数据 量 最 多 为 总 的 数据 访 


问 量 m， 因 此 , SX (20) 可 以 转换 为 以 下 不 等 式 以 至 少 (1-n6) 
成 立 。 


max, {U}, 


zm Eih sarg ») (20) 


LI max, U) VÀ.) <Opt+ Cs " FC) (21) 


也 即 ， 仅 用 算法 ranTA， 跨 域 资源 部 署 的 结果 以 大 概率 稳定 
在 其 最 优 解 附近 。 
定理 2 给 出 了 应 用 ranTA 算法 ， 系 列 作业 平均 完成 时 间 
的 理论 上 界 。 传 统 执行 的 过 程 中 ， 即 使 数据 被 转移 至 云 数 据 
Ph 心 ， 任 务 完成 后 也 不 会 留存 。 本 文 提出 撒 带 式 数据 重 部 署 
FP ,转移 至 云 数 据 中 心 的 数据 在 任务 执行 完毕 后 将 直接 留存 ， 
且 会 根据 作业 特征 ， 调 度 更 多 任务 至 云 数 据 中 心 ( 即 
ranTA-data)， 以 优化 后 续 作 业 在 访问 相同 数据 时 收益 。 定 理 
3 给 出 了 应 用 ranTA-data 下 , 系列 作业 的 平均 完成 时 间 上 界 。 
定理 3 利用 撒 带 式 数据 重 部 署 策略 ranTA-data， 得 
到 的 数据 分 析 作 业 完 成 时 间 能 够 以 大 概率 稳定 在 其 最 优 解 的 
附近 ， 即 (其 中 型 为 所 有 数据 访问 中 不 同 数 据 块 的 数目 ): 


; m' 
TI max {Ui VÀ, S Opt O7— FG) (22) 


证 明 对 于 每 一 次 调度 ,假设 在 进行 作业 j 调度 后 ， 
最 优 调度 从 边缘 集群 i 向 云 数据 中 心 传输 的 任务 数量 为 Ni ， 
MAR (20) 可 以 改写 为 


Y, max, {Ui, Vj} <— S, (max, {ej }+ max, { 


这 是 于 如 果 保持 本 地 计算 负载 不 变 ， 再 将 多 一 个 任务 
puero deo dion ceu Que eM 
《下 是 作业 7 任何 整数 调度 结果 的 . WRI 基于 最 优 调度 
进行 撒 带 式 数 据 重 部 署 ， 30 j 言 ， 数 据 最 
多 仅 会 上 传 一 次 ， 因 此 有 
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所 以 式 (23) 


2 ,max {Ni} sm (24) 


EH 


Y, max, (U/, V. 
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3 的 形式 类 似 ， 
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定理 2 与 定理 
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是 任务 相关 的 所 有 数据 块 数目 ，m "是 任务 相关 的 不 相同 数据 


是 人 


块 的 数 


. m 中 包含 着 重复 性 


的 数据 访问 ， 因 此 ， 
直观 上 ， 得 益 于 使 用 撒 带 式 数 据 重 部 署 ， 将 数据 留存 至 云 数 


mtm. 


据 中 心 为 后 续 系 列 作业 使 用 ，ranTA-data 策略 的 理论 上 界 优 


于 ranTA。 

3 ”仿真 实验 

3.1 评价 方法 与 设计 
仿真 实验 对 于 

的 平均 完成 时 间 。 

本 地 执行 ， 直接 将 任 


[16], 


算法 的 评价 如 同 优 化 目标 ， 
本 文 将 对 这 四 个 算法 的 性 能 进行 比较 : a) 
务 部 署 于 数据 所 在 的 边缘 集群 ; 
将 所 有 数据 先 汇聚 到 云 数据 中 心 再 执行 ;， c〉ranTA， 局 


即 为 系列 作业 


b) 聚集 


部 最 优 解 进行 调度 ， 但 任务 执行 后 不 将 从 边缘 转移 来 的 数据 


保存 在 云 数 据 中 心 ; 
保存 由 边缘 传 来 的 数据 。 


d) ranTA-data， 在 线 调 


度 且 云 数 据 中 心 


仿真 实验 模拟 了 云 -边缘 场景 下 常见 的 参数 设置 : 


a) 
据 中 心 ; 每 个 边缘 集群 拥有 
比 云 数 据 中 心 的 处 理 速 度 比 为 1~5 倍 ， 
宽 变化 范围 为 100Mbps-1GbpsP!. 
数据 分 析 作 业 。100 Až 
作业 的 数据 分 析 任 
理 的 数据 块 大 小 为 64MB 。 


云 一 边缘 环境 设 定 。800 个 边缘 集群 
10-150 个 计算 单元 ; 边缘 集群 相 
且 每 个 边缘 集群 的 带 


居 分 析 作 业 ， 每 个 数据 分 析 
务 为 50-750 AEN, 每 个 数据 分 析 任 务 所 处 


, 一 个 中 心 云 数 


c) 数据 分 布 。30000 个 数据 块 以 Zipf 1480, ER 


为 0.85， 部 署 在 不 同 的 边缘 集群 
复 使 用 特性 9， 
3.2 实验 结果 分 析 


内 ; 同时 为 了 体现 数据 的 重 
有 30% 的 数据 会 以 0.8 的 概率 进行 访问 。 


图 1~3 展示 了 当 云 -边缘 环境 设 定 发 生变 化 时 作业 完成 


带宽 和 边 


16%。 


时 间 的 变化 。 其 中 ，10% | 表示 计算 单元 数目 或 带宽 较 适 度 
的 参数 设置 有 10% 的 下 降 。ranTA-data 表现 最 好 ， 相 比 与 传 
统 的 数据 本 地 性 和 聚集 策略 能 够 在 计算 单元 数目 、 带 宽 和 边 
缘 集 群 数目 发 生变 化 时 分 别 平均 提升 33.9% 、31. GRO. 396, 
相 比 不 进行 数据 重 部 署 的 ran TA. 在 计算 单元 数目 、 
缘 集 群 数目 发 生变 化 时 分 别 平均 提升 1490, 14.3965 
已 539 聚集 
s| CD 数据 本 地 性 
LZ ranTA 
u DX] ranTA-data 
| ii 
IE a | 
" O% T 20% T 1096 f " 1096 4 2096 1 30% 4 
计算 单元 数目 
图 1 完成 时 间 随 计算 单元 数目 的 变化 


Fig. 1 Results under various settings on compute slot. 
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大 | 

态 将 部 分 任 
宽 的 高 负载 得 以 缓解 ， 
闲 计算 资源 或 是 和 
是 相 比 于 ranTA-data, 其 提升 仍然 有 限 , 这 是 因为 ranTA-data 
通过 ] 
据 进 行 留存 。 这 样 
就 能 直接 收益 。 图 
昌 分 布 的 聚集 ， 
的 边缘 集群 增加 了 负担 。 


TR 
给 相应 


1] Z3 聚集 
CO 数据 本 地 性 
so | LZ ranTA 
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2 "" 
Ir 
P3 
b: 
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图 2 完成 时 间 随 带宽 的 变化 
Fig.2 Results under various settings on bandwidth. 
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图 3 完成 时 间 随 边缘 集群 数目 的 变化 
Fig.3 Results under various settings on the number of edges. 
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图 


4 完成 时 间 随 作业 数目 的 变化 


Fig.4 Results under various settings on the number of jobs. 


图 1 和 2 


目 或 是 带宽 ) ranTA 


表明 当 边 缘 集 群 资源 相对 较 少 时 (计算 
能 够 相 比 其 他 两 个 算法 提升 更 大 。 这 是 
为 ranTA 在 每 一 个 作业 到 达 的 时 候 均 会 结合 当下 的 系统 状 
务 调度 到 云 数据 中 心中 去 。 使 得 本 地 或 是 网 络 带 


等 待 空 


避免 在 本 地 进行 长 时 间 的 排队 等 


元 数 


ho gi ees 


肖 带 式 的 数 ] 


量 传输 任务 一 起 共享 稀缺 网 络 带宽 。 


四 重 部 署 ， 会 将 所 有 调度 到 云 数 据 中 心 


， 只 要 后 续 的 作业 再 一 次 使 用 到 该 数 


3 展示 了 当 边 缘 集 群 数目 较 少 的 时 候 ， 


DRRR TF. B 


已 经 尽力 进行 负载 的 疏散 。 


E 


KE, 
然 ranTA 在 该 场景 下 的 完成 时 间 相 对 也 高 
ranTA-data 表现 最 好 ， 


了 转移 负载 外 ， 保 存在 云 数据 中 心 的 数据 会 有 效 提升 后 多 


业 性 能 


HE o 


图 4 和 35 展示 了 当 数 据 分 析 作 业 设 定 发 4 


但 


的 数 
"m 


Hi 


导致 大 量 数据 聚集 在 少数 边缘 集群 内 ， 


聚集 和 数据 本 地 性 


LE 
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变化 时 作业 完 
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成 时 间 的 变化 。ranTA-data 依然 表现 出 色 ， 相 比 与 传统 的 数 式 数 据 重 部 署 策略 ranTA-data， 以 系统 偏好 作为 概率 调度 每 
据 本 地 性 和 聚集 策略 能 够 在 作业 数目 和 平均 任务 数目 发 生变 个 计算 任务 ， 并 在 此 基础 上 提出 了 撒 带 式 数 据 重 部 署 策略 ， 
化 时 分 别 平均 提升 31.6% 和 34.1%。 相 比 不 进行 数据 重 部 署 。” 并 证 明 在 应 用 该 调度 机 制 后 ， 作 业 的 平均 完成 时 间 能 以 大 概 
的 ranTA 在 作业 数目 和 平均 任务 数目 发 生变 化 时 分 别 平均 提 率 聚 集 在 最 优 解 附 近 。 该 方法 使 得 系列 作业 的 平均 完成 时 间 
升 18% 和 16% 。 当 作业 数目 不 断 增 大 或 是 作业 包含 的 数据 分 。” 得 以 降低 ， 具 有 重要 的 理论 和 实际 应 用 意义 。 
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寻 此 聚集 策略 和 数据 本 地 性 策略 的 完成 时 间 均 会 大 幅度 增 : 
加 。 但 是 ranTA-data 增加 缓慢， 这 是 因为 ranTA-data 在 运行 [1] Calder M, Fan Xun, Hu Zi, et al. Mapping the expansion of Google's 


Yr 


时 刻 就 不 断 进 行 数 据 分 析 任务 的 负载 均衡 ， 并 且 数 据 的 转移 serving infrastructure [C]// Proc of (Conference on Internet 
也 为 后 续 作 业 服 务 。 Measurement. New York: ACM Press, 2013: 313-326. 
90 D] Jalaparti V, Bodik P, Menache I, et al. Network-aware scheduling for 
804 = n data-parallel jobs: plan when you can[C]// Proc of ACM Conference on 
x1 = can vd Special Interest Group on Data Communication. New York: ACM Press, 
e. 2015: 407-420. 
m. D] 卢 慧 ,高 弘 博 , 张 丰 满 ,等 .Hadoop 云 平台 下 基于 资源 预 估 的 作业 调度 
E r1 算法 UL 计算 机 应 用 研究 ,2016,33(8): 2311-2314. (Lu Hui, Gao 
iR) Hongbo, Zhang Fengman,et al. Job scheduling algorithm based on 
*1 data-aware in Hadoop [J]. Application Research of Computers, 2016, 
il i n lr in h S Ñ 33(8):2311-2314. ) 
£ 280 300 319 A00 ATO 450 pus [4] Vulimiri A, Curino C, Godfrey P B, et al. Global analytics in the face of 
平均 任务 数目 bandwidth and regulatory constraints[C]//Proc of the 12th USENIX 
图 5 完成 时 间 随 作业 平均 任务 数目 的 变化 Symposium on Networked System Design and Implementation. 
Fig.5 Results under various settings on average number of tasks Berkeley, CA: Usenix Accociation, 2015: 323-336. 
within a job. [5] Pu Qifan, Ananthanrayanan G, Bodik P, et al. Low latency 
Geo-distributed data analytics [C]// Proc of ACM Conference on 
504 = si M Special Interest Group on Data Communication. New York: ACM Press, 
2 Em lun 2015: 421-434. 
à ui [6] Viswanathan R,Ananthanarayanan G , Akella A. CLARINET: 
" WAN-aware optimization for analytics queries[C]// Proc of the 12th 
E u 站 USENIX Symposium on Operating Systems Design and 
iR "- Implementation. Berkeley, CA: Usenix Accociation, 2016: 435-450. 
[7] Yu Boyang,Pan Jianping. Location-aware associated data placement for 
104 i h geo-distributed data-intensive applications[C]//Proc of IEEE 
07 0.75 0. 85 0.95 1 INFOCOM. Piscataway, NJ: IEEE Press, 2015: 603-611. 
数据 分 布 ipto [8] Hu Zhiming, Li Baochun,Luo Jun. Flutter: scheduling tasks closer to 
图 6 完成 时 间 随 数据 分 布 的 变化 data across geo-distributed datacenters [C]//Proc of IEEE INFOCOM. 
Fig.6 Results under various settings on data distribution. Piscataway, NJ: IEEE Press, 2016: 1-9. 
图 6 展示 了 随 数据 分 布 变化 而 变化 的 平均 作业 完成 时 ^ — [9] Hung C C, Golubchik L,Yu Minlan. Scheduling jobs across 
间 。ranTA-data 相 比 与 传统 的 数据 本 地 性 和 聚集 策略 提升 平 geo-distributed datacenters [C]//Proc of the 6th ACM Symposium on 
均 提升 27.2%， 相 比 仅 在 线 数 据 分 布 的 ran TA. 平均 提升 至 少 Cloud Computing. New York: ACM Press, 2015: 111-124. 
13% 。 数 据 分 布 中 Zipf 参数 越 大 ， 意 味 着 数据 越 不 均匀 ， 越 [10] Jin Yibo, Qian Zhuzhong, Guo Song, et al. ran-GJS: orchestrating data 
集中 于 少数 边缘 集群 内 。 因 此 对 部 分 边缘 集群 的 高 高 负载 使 得 analytics for heterogeneous geo-distributed edges [C]// Proc of the 47th 
聚集 策略 和 数据 本 地 性 策略 产生 极 高 时 延 。 当 数据 分 布 越 均 International Conference on Parallel Processing. New York: ACM Press, 
色 时 ， 由 于 边缘 集群 的 数目 巨大 ， 导 致 在 极 个 别 边缘 集群 上 2018: 29: 1-29: 10. 
出 现 ranTA-data 略 差 于 将 所 有 数据 上 传 的 情况 。 这 是 由 于 [11] Ghemawat S, Gobioff H and Leung S. The Google file system [C]// 
ranTA 和 ranTA-data 均 是 基于 随机 化 的 调度 策略 ， 当 数据 分 Proc of the 19th ACM Symposium on Operating Systems Principles. 
析 数 目 较 少 时 ， 采 用 随机 舍 入 策略 可 能 使 得 完成 时 间 差 于 将 New York: ACM Press, 2003: 29-43. 
所 有 任务 调度 到 云 数 据 中 心 。 最 后 ， 数 据 本 地 性 在 数据 分 布 。 “ [12] S X, KIE, 麻 显 .一 种 改进 的 Hadoop 多 用 户 作业 调度 方法 [I]. 
极为 均匀 的 情况 下 差 于 聚集 策略 是 因为 边缘 集群 相 比 云 数 据 计算 机 应 用 研究 ,2015,32(5):1395-1398. (Cao Shuhao, Zhang 
中 心 有 数 据 处 理 的 速度 比 。 使 得 即使 同样 的 任务 ， 全 部 在 本 Changhong,Ma Min. Improved method in solving Hadoop multi-user 
地 执行 仍然 要 比 全 部 上 传 云端 代价 高 。 scheduling [J]. Application Research of Computers,2015,32(5): 
4 结束 语 A 
[13] Chen Jianer,Lee C Y. General multiprocessor task scheduling [J]. Naval 
本 文 针对 跨 域 环境 下 ， 在 异 构 边 缘 集 群 间 进行 跨 域 大 数 Research Logistics, 1999, 46 (1): 57-74. 


据 处 理 时 容易 使 得 计算 能 力 较 弱 或 是 稀缺 带宽 连接 的 边缘 集 
群 成 为 瓶颈 ， 提 出 了 在 线 随 机 化 任务 调度 算法 ranTA Jd Tohoku Mathematical Journal, 1967, 19 (3): 357-367. 


[14] Azuma K. Weighted sums of certain dependent random variables [J]. 


pis 


201901.00047v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 IR 超 ， 等 : 云 -边缘 系统 中 跨 域 大 数据 作业 调度 技术 研究 第 37 卷 第 3 期 

[15] Galamnos  J,Simonelli I.  Boneferroni-Type inequalities with Implementation. Berkeley, CA: USENIX Accociation, 2014: 289-302. 
applications, probability and its applications [M]. New York: [18] Chen Yanpei, Archana G, Rean G, et al. The Case for evaluation 
Spring-Verlag, 1996. MapReduce performance using workloads suites [C]// Proc of the 19th 

[16] Rabkin A, Arye M, Sen S, et al. Aggregation and degradation in Annual IEEE/ACM International Symposium on Modeling, Analysis 
jetstream: streaming analytics in the wide area[C]//Proc of the 11th and Simulation of Computer and  Telecommunication System. 
USENIX Symposium on Networked System Design and Washington DC: IEEE Computer Society, 2011: 390-399. 


Implementation. Berkeley, CA: USENIX Accociation, 2014: 275-288. 
[17] Ananthanarayanan G, Hung Chienchun, Ren Xiaoqi, et al. GRASS: 
trimming stragglers in approximation analytics [C]//Proc of the 11th 


USENIX Symposium on Networked System Design and 


